让张国荣今天早上叫醒你?没问题!
全文共2581字,预计阅读时长3分钟
还记得《名侦探柯南》中柯南的变声器么?每当到了案件的关键时刻,柯南总是会用麻醉针瞄准毛利小五郎。而当毛利沉睡过去之后,在一旁躲起来的柯南就会使用蝴蝶结变声器,用毛利的声音进行案件推理指出真凶。
如果说动漫里面的发明创造大多源自于作者的脑洞和想象力的话,那么“肯尼迪之声”的再现就是对人类想象力和创造力的肯定。
最近,伦敦的《泰晤士报》表示,他们和英国音频技术公司CereProc、爱尔兰创意机构Rothco合作构建了数据库,对已故美国前总统肯尼迪发表过的800篇演讲音频进行分析,用这些话语片段创造出音频,从而成功地再现了肯尼迪的声音。
在遇刺55年后,肯尼迪最终完成了本应于1963年11月22日在达拉斯贸易市场午宴上发表的演讲,而这完全归功于现代科技的发展。
在语音克隆技术领域,中国丝毫不逊色于其他国家。
“很久不见,你们还好吗?这么多年过去,谢谢你们始终记得我……”这段来自百度技术团队的音频,成功地再现了已故天王张国荣的声音,成为了2016年张国荣诞辰60周年纪念活动的最大亮点。
新技术还在不断地被突破。今年3月初,百度发表的论文中提到了新的语音生成技术。作为深度学习的结晶,这一新技术不仅可以模仿上千个不同对象的声音,而且只要通过一个半小时的语音数据学习,就能“克隆”出原对象的声音。
虽然百度先前发布的“Deep Voice”语音合成应用也能够生成语音,但这次的新技术最大特色就是可以让生成出来的语音附带不同的语言特色。除了能“克隆”声音之外,它还能更改声音的口音和性别,甚至还能赋予克隆声音简单的情感。
语音克隆是如何再现真实人声的?
其实语音合成技术我们早就接触过——大多数人应该都有过拨打客服热线的经历吧。对,就是经常断线、卡顿且往往解决问题遥遥无期的那种。但只有AI技术支持的才称为语音克隆。那么这项语音克隆技术到底是怎样做到的呢?
以百度“Deep Voice”技术为例,具体来说,该技术需要通过两种具体的方法来实现:说话人适应(speaker adaption)和说话人编码(speaker encoding)。这不像很多先前的技术,需要海量的数据积累和巨大的工作处理量。相反,依靠深度语音系统,只用很少的音频数据就可以完成克隆任务。
其中“说话人适应”就是使用多个克隆样本,基于反向传播的优化方法对多个说话人语音生成模型做精细调节。而“说话人编码”则需要训练一个单独的模型,用它直接从语音样本中推断出一个新的嵌入数据,然后再把这个嵌入数据用在多个讲话人语音生成的模型中。这个方法的好处是克隆耗时少、标明说话人信息所需要的参数少,使得这种方法在输入资源有限的场景中也能够使用。
但是目前的语音克隆技术还不够完美,因为人在说话时,除了音色等表象因素之外,还会带有各种情感——但这却是目前语音克隆技术所面临的最大难题。
目前的语音克隆能够进行的情感表达,更多的是经过研究人员合成、修改完成的,并不能自行完成这一功能,更不要说是和人进行情感语音交互了。因而完美的语音克隆技术还需要走很长的路。
要让语音克隆真的做到像是来自一个“真实的人”,不仅需要情感识别、情感自动标注、语气调整等大量的数据作支撑,其涉及到的费用和技术也不可想象。
不过读芯君相信,随着AI技术的日渐进步与成熟,以及各大厂商的持续发力,总有一天语音克隆也可以抑扬顿挫,像是注入了灵魂一样。
语音克隆可以带来什么?
现实生活中这项技术可以给我们带来些什么呢?AAAI主席Subbarao Kambhampati曾表示希望百度这项技术尽快实用起来——因为只要设置好了自己的声音,哄小孩睡觉的时候就再也不用花时间讲睡前故事了。
ORZ,心疼他的宝宝一秒。
还是言归正传吧。
其实,在人机交互的个性化场景中,克隆语音可能产生巨大的作用,比如可以定制个人AI助手。尤其是对于有语言障碍的人来说,这个程序可以帮助他们练习、恢复发声,甚至可以成为他们的社交工具。而从心理学的角度来看,某种特定声音的复原也有可能抚慰和治愈有心理创伤的病人。
说到这里,小芯想讲个故事给大家听。
8年前,有一场车祸案件引起了全国的关注,相信不少人还记得,就是长安街英菲尼迪车祸案。一场飞来横祸拆散了一个幸福的家庭,造成王辉丈夫陈伟宁及其6岁女儿死亡,王辉多处粉碎性骨折。
为了照顾好另一个双胞胎女儿,王辉坚强地活了下来。然而在她心头,没能与挚爱做一次正式的道别,始终是心头最大的遗憾。
2016年,中国智能语音知识产权产业联盟正式成立,北京电视台通过联盟联系到百度,希望借助高科技,融入原音重现技术,打破生死界限,帮助王辉弥补终生遗憾。百度语音合成技术团队用了一个多月时间,合成了王辉丈夫的声音。一向坚强的王辉,在听到这段语音后泪流满面,甚至有点忘记了这是一场天人永隔的对话。她念叨着告诉丈夫,这些年自己考了心理咨询师,来帮助更多人……
没有语音克隆技术,这场跨越生死的相见是不可能实现的,而王辉也有可能抱憾终身。
然而不能忘记的是,科技也是一把双刃剑。语音克隆给我们带来便利和进步的同时,也会带来麻烦和问题。首当其冲的就是录音文件的可信度遭到严重破坏,个人身份信息也非常容易被恶意利用。据媒体报道,使用人工智能技术做出声音识别软件,在测试中的准确率已经超过了95%。如此一来,语音克隆便很容易成为语音诈骗的帮凶。比如在美剧《傲骨之战Ⅱ》中,女主角玛雅就差点被假的语音证据诱导,做出不利于自己立场的决定。
虽然随着科技的进步,语音识别会更加严谨,也会有可以辨别语音真假的系统相继出现,但是在现实生活中,语音克隆或许会造成的误导性效果仍然不能轻视。
读芯君开扒
我们该如何对待语音克隆技术?
从克隆羊多莉的诞生,到如今的语音克隆技术的发展,它们意味着科学技术的巨大进步,也意味着人类生活可能遭遇威胁。
生物克隆,让我们可以拯救濒临灭绝的动物,可以治愈恶疾,可以找到情感的替代品。因为有了可以复制粘贴一般的技术,所以我们很可能活得更久,但也变得更不在乎健康。
语音克隆,让我们可以帮助有障碍的人更好地沟通交流,可以陪伴慰藉空虚的老人和儿童,可以抚平心灵创伤。但也因为有了可以替代自己存在的声音,所以我们就会更少地陪伴亲人,更不会去苦心维护一段感情。
物以稀为贵,这句话总是对的。一旦有了复制功能,是不是原版对我们来说又有什么不同呢?科技让生活更便利,也让我们变得更懒。不需要付出太多的时间和精力,不需要面对面交流,我们就可以得到想要的情感与物质。科技生活在进步,人类文明在退步——这很可能不是臆想。
但我们一定要记得,技术的进步最终是为了让我们活得更好。
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
作者:身后三只狗
参考文献链接:
http://tech.163.com/18/0319/11/DD8QCHL900097U7T.html
http://www.tmtpost.com/3118594.html
http://mp.weixin.qq.com/s/QhyiurMQIhKXOl-hL5aw2A
http://www.chinanews.com/it/2016/03-31/7818390.shtml
如需转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你